Even though machine learning has become the major scene in dialogue research community, the real breakthrough has been blocked by the scale of data available. To address this fundamental obstacle, we introduce the Multi-Domain Wizard-of-Oz dataset (MultiWOZ), a fully-labeled collection of human-human written conversations spanning over multiple domains and topics. At a size of 10k dialogues, it is at least one order of magnitude larger than all previous annotated task-oriented corpora. The contribution of this work apart from the open-sourced dataset labelled with dialogue belief states and dialogue actions is two-fold: firstly, a detailed description of the data collection procedure along with a summary of data structure and analysis is provided. The proposed data-collection pipeline is entirely based on crowd-sourcing without the need of hiring professional annotators; secondly, a set of benchmark results of belief tracking, dialogue act and response generation is reported, which shows the usability of the data and sets a baseline for future studies.
translated by 谷歌翻译
Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
translated by 谷歌翻译
自2016年成立以来,Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟,同时达到至少4.0/5.0的平均评分。但是,由于对话代理商试图帮助用户完成日益复杂的任务,因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上,通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求,同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求,识别和集成任务和域知识,并开发新的方式,不分散用户的注意力,而不必分散他们的任务,以及其他挑战。本文概述了Taskbot挑战赛,描述了使用Cobot Toolkit提供给团队提供的基础架构支持,并总结了参与团队以克服研究挑战所采取的方法。最后,它分析了比赛第一年的竞争任务机器人的性能。
translated by 谷歌翻译
目的:用脑电图(脑电图)测量的稳态视觉诱发电势(SSVEP),在脑部计算机界面(BCI)拼写中产生不错的信息传输速率(ITR)。但是,文献中当前高性能的SSVEP BCI拼写器需要针对每个新用户进行系统适应的最初冗长而累人的用户特定培训,包括使用脑电图实验,算法培训和校准的数据收集(所有这些都是在实际使用之前系统)。这阻碍了BCI的广泛使用。为了确保实用性,我们提出了一种基于深神经网络(DNN)合​​奏的高度新颖的目标识别方法,该方法不需要任何特定于用户的培训。方法:我们从先前进行的脑电图实验的参与者中利用已经存在的文献数据集来训练全球目标标识符DNN,然后对每个参与者进行微调。我们将这种微调DNN的合奏转移到新的用户实例中,根据参与者与新用户的统计相似性确定k最具代表性的DNN,并通过集合预测的加权组合来预测目标角色。结果:在两个大规模基准和β数据集上,我们的方法可实现令人印象深刻的155.51位/分钟和114.64位/分钟ITR。代码可用于可重复性:https://github.com/osmanberke/ensemble-fnns结论:拟议的方法在[0.2-1.0]中的所有刺激持续时间上的所有最新替代方案都显着优于[0.2-1.0]秒。两个数据集。意义:我们的合奏-DNN方法有可能在日常生活中促进BCI拼写者的实际广泛部署,因为我们提供了最高的性能,同时无需任何特定于用户的培训即可立即使用。
translated by 谷歌翻译
上肢控制和功能的丧失是中风后患者的不懈症状。这将使他们的日常生活活动施加艰辛。引入了超级机器人四肢(SRL)作为解决方案,以通过引入独立的新肢体来恢复损失的自由度(DOF)。 SRL中的致动系统可以分为刚性和软致动器。通过固有的安全性,成本和能源效率,软执行器已证明对刚性的刚性有利。但是,它们的刚度低,这危害了其准确性。可变的刚度执行器(VSA)是新开发的技术,已被证明可确保准确性和安全性。在本文中,我们介绍了基于可变刚度执行器的新型超级机器人肢。根据我们的知识,提议的概念验证SRL是第一个利用可变刚度执行器的人。开发的SRL将帮助中风后患者完成双重任务,例如用叉子和刀进食。说明了系统的建模,设计和实现。评估并通过预定义轨迹对其准确性进行了评估和验证。通过利用动量观察者进行碰撞检测来验证安全性,并通过软组织损伤测试评估了几种冲突后反应策略。通过标准的用户满意度问卷对援助过程进行定性验证。
translated by 谷歌翻译
自动对象检测器的本地化质量通常通过联合(IOU)分数进行评估。在这项工作中,我们表明人类对本地化质量有不同的看法。为了评估这一点,我们对70多名参与者进行了调查。结果表明,对于以完全相同的评分而言,人类可能不会认为这些错误是相等的,并且表达了偏好。我们的工作是第一个与人类一起评估IOU的工作,并清楚地表明,仅依靠IOU分数来评估本地化错误可能还不够。
translated by 谷歌翻译
许多生物学和医疗任务需要描绘出图像体积的3D曲线结构,例如血管和神经突。这通常是使用通过最大程度地减少不捕获这些结构拓扑特性的体素损失函数来训练的神经网络完成的。结果,回收结构的连通性通常是错误的,这减少了它们的实用性。在本文中,我们建议通过最大程度地减少其2D预测的拓扑感知损失的总和来提高结果的3D连接性。这足以提高准确性并减少提供所需的注释培训数据所需的注释工作。
translated by 谷歌翻译
在几个机器学习应用领域,包括可解释的AI和弱监督的对象检测和细分,高质量的显着性图至关重要。已经开发了许多技术来使用神经网络提高显着性。但是,它们通常仅限于特定的显着性可视化方法或显着性问题。我们提出了一种新型的显着性增强方法,称为SESS(通过缩放和滑动增强显着性)。这是对现有显着性图生成方法的方法和模型不可或缺的扩展。借助SESS,现有的显着性方法变得稳健,可在尺度差异,目标对象的多次出现,分散器的存在以及产生较少的嘈杂和更具歧视性显着性图。 SESS通过从不同区域的不同尺度上从多个斑块中提取的显着图来提高显着性,并使用新型的融合方案结合了这些单独的地图,该方案结合了通道的重量和空间加权平均值。为了提高效率,我们引入了一个预过滤步骤,该步骤可以排除非信息显着图以提高效率,同时仍提高整体结果。我们在对象识别和检测基准上评估SESS可以取得重大改进。该守则公开发布以使研究人员能够验证绩效和进一步发展。代码可用:https://github.com/neouyghur/sess
translated by 谷歌翻译
在本文中,提出了一种基于进发神经网络的方法来减少单眼视觉探针算法漂移的方法。视觉轨道图算法计算连续摄像机框架之间车辆的增量运动,然后集成这些增量以确定车辆的姿势。提出的神经网络减少了车辆的姿势估计中的误差,这是由于特征检测和匹配,摄像机固有参数等不准确而导致的。这些不准确性传播到对车辆的运动估计,从而导致大量估计误差。降低神经网络的漂移基于连续的摄像头框架中特征的运动来识别此类错误,从而导致更准确的增量运动估计值。使用KITTI数据集对拟议的漂移减少神经网络进行了训练和验证,结果表明,所提出的方法在减少增量方向估计中的误差方面的疗效,从而减少了姿势估计中的总体错误。
translated by 谷歌翻译
这项研究采用无限脉冲响应(IIR)图神经网络(GNN),有效地对智能网格数据的固有图形网络结构进行建模,以解决网络攻击本地化问题。首先,我们通过数值分析有限脉冲响应(FIR)和IIR图过滤器(GFS)的经验频率响应,以近似理想的光谱响应。我们表明,对于相同的滤波器顺序,IIR GF可以更好地近似所需的光谱响应,并且由于其合理类型的滤镜响应,它们也与较低阶GF的近似值相同。其次,我们提出了一个IIR GNN模型,以有效预测总线上的网络攻击的存在。最后,我们在样本(SW)和BUS(BW)水平的各种网络攻击下评估了模型,并将结果与​​现有架构进行比较。经过实验验证的是,所提出的模型的表现分别优于最先进的FIR GNN模型,分别在SW和BW定位方面分别优于9.2%和14%。
translated by 谷歌翻译